ICRA2021专场回顾|基于深度注意力机制的L4自动驾驶视觉定位方法
近期,一年一度的国际机器人技术与自动化大会(ICRA)在中国西安如期举行。数千位来自高校、科研机构、科技公司的教授、学者和工程师们汇聚ICRA 2021现场,带来近50场技术研讨会,共话机器人、自动化、人工智能等领域前沿进展,云端吸引全球超过10余万人的关注参与。百度Apollo继续携干货参与ICRA,带来自动驾驶Workshop技术分享专场。本文主要从以下几点为大家详细讲解「基于深度注意力机制的L4自动驾驶视觉定位方法」的内容!
多传感器融合定位系统 如何实现 基于深度注意力机制的视觉定位方法 建议方法总结
定位是指自动驾驶汽车找出它在世界/全局坐标系下的位置,并将车体坐标系下检测到的障碍物投射到全局坐标中。这个世界可以认为是一个由高精地图和检测到的障碍物组成的虚拟世界。
这样,自动驾驶汽车利用定位信息就可以和上述高精地图中的元素以及在线感知模块检测到的周围障碍物在同一个坐标系下。这要求定位精度达到厘米级。
为了提供可靠的定位,常用的方法是建立多传感器融合定位系统。
典型的多传感器融合定位框架通常包括:GNSS定位模块、基于IMU 和里程表的航迹推算模块、基于视觉的地图匹配定位模块、视觉惯性里程计模块和融合模块。
GNSS和视觉定位提供自动驾驶汽车相对于高精地图的位置和旋转,而航位推算和视觉惯性里程测量提供时序上的平滑性。多传感器融合模块可以是基于误差卡尔曼滤波(ESKF)的实现,也可以是基于带滑动窗口的因子图模型(Factor Graph)的实现。
对于L4自动驾驶,激光雷达一直是首选的传感器。激光雷达传感器能够精确捕捉环境的三维测量信息,基于激光雷达的定位可以提供厘米级的精度。与激光雷达相比,摄像头只能捕捉到环境的2D表观信息。因此,基于视觉的L4自动驾驶定位是非常具有挑战性的。
经典的视觉定位方法是基于手工特征,如SIFT、SURF、 ORB。手工制作的特征在光照、视角变化或其他光度计和几何变化(如天气和季节变化)下,特征匹配总是不可靠,导致定位失败。
基于学习的方法是特征点检测和描述的一大进步。基于学习的检测器的可靠性和可重复性明显优于手工检测器,特征描述子对光照和视点变化的鲁棒性更强。
第三种视觉定位方法是基于语义特征的或者说基于地标的方法。像车道、电线杆、交通标志和地面标志等语义对象都被放入带有3D坐标的高精地图中。在线定位时,感知模块在线检测相同的语义对象,获得2D对象。二维-三维目标关联后,通过PnP求解器或其他解算器计算定位位姿。这些方法对照明和其他光度变化都很可靠。但这些方法只适用于具有丰富人造功能的环境,但在缺乏这些功能的挑战性场景中很容易失败。此外,这些方法只选择语义符号或标记只覆盖图像的一小部分区域,而放弃了其他区域丰富而重要的信息。
为L4自动驾驶汽车建立一个视觉定位模块是具有挑战性的。它需要能适应光照、视角的变化,甚至季节的变化,而且需要提供厘米级别的定位精度。
首先,匹配描述符应该使用深度神经网络而不是手工特征;
其次,如果将重建的sfm点作为地图点的话,那么sfm的重构误差、以及sfm点与HD Maps之间的配准误差将累加到定位误差中。直接使用LiDAR点作为地图点,地图采集车上的激光雷达传感器和摄像头做了硬触发的时间同步;
最后,来自动态对象和易变化的对象(如树叶)的地图点应该被自动避免。
由于我们使用LiDAR点作为我们的地图点,传统的特征点匹配和PnP位姿求解方法在这里不起作用。因此,我们引入一种姿态求解器,将解空间划分为多个格子,并将所有格子中的地图点的匹配分数累加在一起,从而找到最优解。
我们提出一种基于深度注意力的视觉定位方法。
该方法从地图图像中提取基于学习的特征描述符,根据学习到的地图热力选择注意力关键点,然后与在线图像进行匹配,通过可微分位姿求解器推断出最优姿态。
训练阶段,利用在线图像的真值位姿的偏移量来监督网络训练:
利用深度神经网络(局部特征嵌入模块)提取基于学习的特征描述符,它们对季节和光照的变化具有很强的鲁棒性。局部特征嵌入模块从在线图像和地图图像中提取描述子特征图,并相应地从地图图像中提取注意力热力图;
根据注意力热力图和激光雷达点云投影,通过最远点采样操作选择三维关键点(Keypoints);通过端到端网络训练热点图中相应的注意力得分,将所选关键点及其对应的描述符、注意力得分和三维坐标组合在一起,构建三维关键点地图;
将这些三维关键点、特征描述符和相应的注意力得分作为输入,通过一个包含采样和离散候选姿态的可微分Cost Volume与在线图像进行匹配。将地图点根据 Cost Volume 中的候选位姿投影到在线图像上,计算其匹配度,将这些匹配打分叠加到 Cost Volume 中的候选位姿上,从而在 Cost Volume 中用加权平均的方式得到最优位姿。这个重要的设计帮助我们绕过关键点检测器的可重复性危机。
训练完成后,推理阶段包含地图生产和在线定位。首先,使用网络的子部分来生成定位地图。
地图生成步骤的输入是地图图像、激光雷达点云和车辆姿态。基于激光雷达扫描和车辆姿态,可以很容易地获得激光雷达点的全局三维坐标。
首先,利用LFE网络从地图图像中提取不同分辨率的注意力热图和特征描述符;
然后,使用真值位姿将三维激光点投影到地图图像上,这样像素与三维激光点就建立了关联;
接下来,在AKS模块中依据注意力热力图为不同的分辨率分别选择一组关键点。我们将关键点及其描述符和3D坐标保存在地图数据库中作为我们的定位地图。
在定位阶段,我们的目标是通过匹配预构建的定位地图和在线图像的描述符,找到最终位姿和预测位姿之间的最优偏移。这个预测的位姿通常来自融合模块。
首先,利用LFE网络再次提取在线图像中不同分辨率的特征描述符;
其次,在给定预测位姿预测的情况下,从地图数据库中最近的地图图像中提取关键点及其特征描述符和全局三维坐标;
然后,利用我们在WFM模块中建立的Cost Volume中的采样候选位姿,将这些关键点投影到在线图像上。
三种不同分辨率的特征匹配网络组成级联方式,实现由粗到精的定位,输出估计的车辆位姿。
引入特征金字塔网络来提取深度特征,该网络对光照和季节变化具有鲁棒性;
直接使用LiDAR点作为地图点,这自然与使用 LiDAR 制作的高精地图相一致;
利用学习到的热力图,选取适合定位目标的激光雷达点作为地图点;
在给定预测姿态的情况下,将x-y-yaw方向解空间划分为一个Cost Volume,然后使用所有地图点的匹配结果对 Cost Volume 中的格子进行投票。这里是在真值航向角下 12 个地图点与在线图像匹配分布的可视化图。虽然一些地图点的匹配分布没有收敛,但分布中在正确 x-y下的投票仍然对最终结果有贡献。将这些分布融合在一起,得到一个以正确 x-y 位置为中心的收敛分布。这表明姿态求解器可以绕过关键点检测器的可重复性危机。
以上就是ICRA2021自动驾驶Workshop技术分享中关于「基于深度注意力机制的L4自动驾驶视觉定位方法」的全部内容啦!如果大家对此次国际机器人技术与自动化大会(ICRA)的内容感兴趣可以上B站观看全程直播。
©️著作权归作者所有,如需转载,请注明出处,否则将追究法律责任。
点击文章左下角『阅读原文』
可观看直播回放